Big Context Windows Are a Big Deal
上周,我试用了 Google 最新的生成模型:Gemini 1.5,这是一个多模式庞然大物,可以处理长达一小时的视频、11 小时的音频、30,000 行代码或 700,000 个单词。就上下文长度而言,这是一个巨大的飞跃:Gemini 接受的输入是其最强大的前身 Claude 2.1 的 5 倍。我一直兴奋地期待着长上下文窗口时代的到来,不仅因为它们使生成模型能够解决全新类型的问题,还因为它们可能会改变我们使用 LLM 进行开发的方式。但我有点操之过急了。首先,让我与您分享一些我最喜欢的 Gemini 1.5 实验。使用 VideoAI Family Video Archive 2.0 进行提
Machine Learning's Most Useful Multitool: Embeddings
嵌入是机器学习中最通用的技术之一,也是每个 ML 工程师工具箱中都应该拥有的关键工具。遗憾的是,我们中很少有人了解它们是什么以及它们有什么用处!问题可能在于嵌入听起来有点抽象和深奥:在机器学习中,嵌入是一种将数据表示为 n 维空间中的点的方式,以便相似的数据点聚集在一起。听起来无聊又不起眼?不要被愚弄。因为一旦您了解了这个 ML 多功能工具,您将能够构建从搜索引擎到推荐系统再到聊天机器人等所有内容。此外,您不必是具有 ML 专业知识的数据科学家即可使用它们,也不需要庞大的标记数据集。我是否已经说服您这些坏家伙有多棒了?🤞很好。让我们开始吧。在这篇文章中,我们将探索:什么是嵌入?它们有什么用?在
You, Me, and My AI-Generated Alternate Identity
@azusagakuyuki 是一位年轻的日本摩托车手,长发飘飘,下巴精致,在 Twitter 上有 33,000 名粉丝。她在 Twitter 上发布自己身穿机车衫的照片,在土路、山顶和雾气弥漫的海滩上,站在闪闪发光的红蓝相间的 Yamaha Telkor 前摆姿势。她美丽、喜欢冒险,让人羡慕不已。但有一天,她在 Twitter 上无意中发布了一张摩托车的照片,照片中后视镜里有她的倒影。倒影里是一个中年男人——因为照片中的女人实际上是一个 50 岁的男子,名叫 Soya,他使用机器学习驱动的面部调整应用程序改变了自己的面容。(值得称赞的是,Soya 的浓密秀发 100% 是他自己的。)“没有
An Impractical Guide to AI on Google Cloud
你的经理拿枪指着你的头说:“十分钟内卖给我一款 Google Cloud AI 产品,否则你就完蛋了。” 又到了一年一度的绩效评估时间。Perf。“好吧,好吧,”你说。“冷静一下。GCP AI 产品组合中有这么多产品,我相信我们能找到一款适合你的用例的产品。”“我没有用例,”你的经理说。“AWS 说我不需要。”现在你急得要命。“如果你不在接下来的三秒钟内开始向我推销产品,我就要开这个东西了,”他说着,拍了拍你旁边的金属栏杆。你被拴在跑步机办公桌上。你用手指戳着你的 Android 形状的压力球,试图在脑海中回忆起所有的 GCP AI 产品。 Vertex AI、深度学习引擎、文档 AI、对话式
Build an Animal/Object Tracking Camera App with TensorFlow.js
介绍 PetCam:一款运行在旧智能手机上的非侵入式机器学习宠物追踪器。这个项目是我和 Jason Mayes 合作的,是他提出了这个想法。另外,有趣的故事,呃……我的同事 Markku Lepistö 在他自己的 YouTube 节目 Level Up 上同时构建了(几乎)完全相同的项目,您可以在此处看到。我们使用旧智能手机。他使用 Coral 开发板。选择你自己的冒险。当我年轻时,住在新泽西州的家里,我的父母非常严格地要求我晚上记得关上车库。因为如果我不关上车库,就会发生这样的事情:然后第二天早上,我们走出前门,闻到一股强烈的脏尿布味,看到垃圾袋被撕碎并倒在车道上。显然有人度过了一个疯狂的
Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5
你知道那句话吗?当你有一把锤子时,所有东西看起来都像钉子。在机器学习中,我们似乎真的发现了一把神奇的锤子,实际上,所有东西都是钉子,它们被称为 Transformers。Transformers 是一种可以设计用于翻译文本、写诗和专栏文章,甚至生成计算机代码的模型。事实上,我在 daleonai.com 上写的很多令人惊叹的研究都是基于 Transformers 构建的,比如 AlphaFold 2,这是一个根据蛋白质基因序列预测蛋白质结构的模型,以及强大的自然语言处理 (NLP) 模型,如 GPT-3、BERT、T5、Switch、Meena 等。你可能会说它们已经超出了……呃,算了吧。如果
How I, One Humble Engineer, Deal With Imposter Syndrome
首先,我想说冒名顶替综合征已经被广泛讨论过了,我可能没有什么新东西可以加入讨论,所以我就此打住,感谢阅读,很抱歉浪费了你的时间。Akhem。虽然已经有大量关于克服冒名顶替综合征的建议,但我发现它通常分为两类:你!冒名顶替者?!不可能!别再这么想了!假装直到你成功。如果你一直表现得很自信,总有一天你会变得自信。第一个角度显然是无用的,而第二个角度,我认为,既不可能也不明智。热门观点:你无法成功地假装自信。并不是说如果你能假装自信就没用了。研究表明,在表现出能力方面,自信与实际能力一样有说服力(甚至更有说服力),让人们认为你知道自己在做什么。过度自信可以让你在生活中走得更远。但同样的研究表明,仅仅
AI Dubs Over Subs? Translating and Dubbing Videos with AI
除了自己做饭和在家里走几圈,日本动画片(孩子们称之为“动漫”)也是我在隔离期间爱上的一件事。不过,看动漫的问题是,如果你不学日语,就得依赖人工翻译和配音演员将内容移植到你的语言中。有时你会得到字幕(“subs”),但没有配音(“dubs”)。还有些时候,整季的节目都没有翻译,你只能坐立不安,只能靠维基百科摘要和 90 年代的网络论坛来帮助你度过黑暗。那么你该怎么办呢?答案显然不是让计算机将整集电视节目从日语转录、翻译和配音成英语。翻译是一门细致的艺术,无法自动化,需要人类用爱心之手来完成。此外,即使你确实使用机器学习来翻译视频,你也不能用电脑来配音……我的意思是,谁会想听一整季的机器声音?那太
DALL·E Explained in Under 5 Minutes
似乎每隔几个月,就会有人发表一篇让我大吃一惊的机器学习论文或演示。本月,OpenAI 的新图像生成模型 DALL·E 面世。这个庞大的 120 亿参数神经网络采用文本标题(即“鳄梨形状的扶手椅”)并生成与之匹配的图像:来自 https://openai.com/blog/dall-e/。我认为它的图片非常鼓舞人心(我会买一把鳄梨椅),但更令人印象深刻的是 DALL·E 理解和呈现空间、时间甚至逻辑概念的能力(稍后会详细介绍)。在这篇文章中,我将简要概述 DALL·E 的功能、工作原理、它如何适应 ML 的最新趋势以及它为何如此重要。我们开始吧!DALL·E 是什么?它能做什么?7 月,DALL
AlphaFold 2 Explained: A Semi-Deep Dive
上个月底,谷歌机器学习研究部门 DeepMind 创下了新纪录:准确预测蛋白质结构。DeepMind 以开发击败围棋和星际争霸 II 世界冠军的机器人而闻名。如果他们的结果像团队声称的那样好,他们的模型 AlphaFold 可能会为药物发现和基础生物学研究带来重大福音。但这种基于神经网络的新模型是如何工作的呢?在这篇文章中,我将尝试简要但半深入地介绍支持该模型的机器学习和生物学。首先,快速了解一下生物学:蛋白质在体内的功能完全由其三维结构决定。例如,臭名昭著的“刺突蛋白”可以标记冠状病毒,从而使病毒进入我们的细胞。同时,Moderna 和辉瑞等 mRNA 疫苗复制了这些刺突蛋白的形状,从而